基于视觉信息与DOM树的Deep Web数据获取方法研究

基于视觉信息与DOM树的Deep Web数据获取方法研究

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:3041
师大云端图书馆

【摘要】近年来,随着互联网信息的迅速膨胀,数据的商业价值不断地被挖掘出来,以提供增值服务,例如评论分析、元搜索、比较购物、大数据应用等,这些都是建立在DeepWeb数据获取与数据集成基础之上。随着越来越多与领域相关且具有高质量信息的后台数据库的涌现,DeepWeb数据获取与集成依然是个比较热门的研究方向。为了有效地提取目标数据库中的数据元组,以及抽取动态页面中的结构化数据,本文将从以下几个方面进行研究:1)考虑到DeepWeb查询接口具有多属性以及存在top-k问题,首先构建了数据空间树模型,并利用启发式信息对空间树进行剪枝。其次,提出了综合查询接口中文本域值的动态选择策略。最后,通过实验验证了本文方案能够有效地提高数据提取效率。2)为了自动定位页面主数据区域,给出了一组启发式特征以及特征的量化方法,提出了基于特征值线性加权的方法进行主数据区域挖掘。3)针对列表页数据记录抽取问题,利用页面的视觉信息与DOM标签树信息计算视觉块的相似度,提出了抽取数据记录的block-regrouping算法,并通过实验验证了该方法的有效性。4)为了缩短具有相同模板的记录抽取时间,提出了面向数据源的包装器生成方法。5)在已有工作基础上设计了的DeepWeb数据抽取原型系统,通过在本地模拟数据库与真实Web数据库上的实验验证了本系统的可行性。
【作者】李学环;
【导师】崔志明;
【作者基本信息】苏州大学,计算机软件与理论,2014,硕士
【关键词】DeepWeb;数据提取;数据区域挖掘;记录抽取;包装器;

【参考文献】
[1]谭荣华,袁有杰.应用数据仓库可以给我们带来什么[J].中国管理信息化,2005,09:48-51.
[2]林水森.6-叠氮壳聚糖季铵盐及其同系物的制备与抗菌活性研究[D].华侨大学,高分子化学与物理,2014,硕士.
[3]彭笑怒.抑制聚二磷酸腺苷核糖聚合酶1减轻尼古丁诱导的人支气管上皮细胞炎症反应的研究[D].山东大学,外科学,2013,硕士.
[4]胡立伟.大学生如何有效应对“不安全型成人依恋”恋人的探索性研究[D].河北师范大学,应用心理,2014,硕士.
[5]叶剑波.LTE下行链路仿真实现及LTE室内覆盖设计[D].南京邮电大学,电子与通信工程(专业学位),2013,硕士.
[6]吴兆坤.胃癌全胃切除预后分析及消化道重建方式对营养状况和生活质量影响的临床研究[D].复旦大学,肿瘤学,2012,硕士.
[7]齐哲.柯兹洛夫对中国西北少数民族的跨文化解读[D].兰州大学,俄语语言文学,2014,硕士.
[8]杨葵葵.汉剧《二度梅》研究[D].湖北大学,中国古代文学,2012,硕士.
[9]刘孝杰.甲骨文同义表达研究[D].西南大学,汉语言文字学,2013,硕士.
[10]杨海强.β淀粉样蛋白聚集-解聚机制研究进展[J].生物技术世界,2014,03:130.
[11]李莉.纪录片中的动画现象研究[D].苏州大学,传播学,2013,硕士.
[12]任彦海.基于USB的编译型数控系统关键技术研究[D].哈尔滨工业大学,机械制造及其自动化,2013,硕士.
[13]杨久川.高速铁路平纵断面轮轨系统振动特性[D].西南交通大学,车辆工程,2013,硕士.
[14]孙以栋,应华东.高等院校基于工作室制的艺术设计人才培养模式探索与实践[J].包装世界,2014,01:54-55.
[15]张玉明.张家港市中小学课余体育改革的研究[D].苏州大学,体育人文社会学,2012,硕士.
[16]贺振东,王耀南,毛建旭,印峰.基于反向P-M扩散的钢轨表面缺陷视觉检测[J].自动化学报,2014,08:1667-1679.
[17]吴心.我国证券发行上市保荐人制度的法律分析[D].华中科技大学,法律,2013,硕士.
[18]王要敏.内燃发动机气缸体缸孔的加工及其特殊结构专能加工设备[J].组合机床与自动化加工技术.1988(05)
[19]许达.石墨烯及其聚烯烃复合材料的制备与性能研究[D].哈尔滨理工大学,2012.
[20]温旭丁.ANN模型在亚热带杉木林CO_2通量研究中的应用[D].中南林业科技大学,生态学,2014,硕士.
[21]李双玫.广东零售企业利用新技术提升核心竞争力的研究[D].广东工业大学,2004.
[22]魏宇昆,高玉葆,李川,许华,任安芝.内蒙古中东部草原羽茅内生真菌的遗传多样性[J].植物生态学报,2006,04:640-649.
[23]彭定辉.门禁系统中的人脸检测技术的研究与实现[D].北方工业大学,检测技术与自动化装置,2013,硕士.
[24]郑焕然.滨海软土地基处理技术及沉降分析[D].湖南大学,建筑与土木工程,2003,硕士.
[25]黄丽.论行政过程信息公开[D].兰州大学,宪法学与行政法学,2013,硕士.
[26]刘慧.巯基化蒙脱石的制备及其对镉的吸附/解吸机理研究[D].成都理工大学,分析化学,2013,硕士.
[27]杨颖琦.新课程中的合情推理及其教学研究[D].湖南师范大学,学科教学(专业学位),2013,硕士.
[28]杨文渊.136例原发性肝癌临床分析[D].广西医科大学,消化内科(专业学位),2013,硕士.
[29]曹少伟.乳糖酶固态发酵条件的优化及其分离纯化的研究[D].天津科技大学,生物化学与分子生物学,2010,硕士.
[30]朱静.全日制教育硕士教育实习问题研究[D].东北师范大学,课程与教学论,2012,硕士.
[31]陈艺璇.基于多目标遗传算法的复杂网络社区划分[D].兰州大学,通信与信息系统,2013,硕士.
[32]薛毅.涉及人的生物医学研究中保护受试者权益问题研究[D].辽宁医学院,伦理学,2012,硕士.
[33]王晓妮.基于J2EE的咸阳师范学院OA系统的设计与实现[D].西安电子科技大学,计算机技术,2011,硕士.
[34]郭鹏.益高公司基于顾客让渡价值的营销策略研究[D].湖南大学,工商管理,2003,硕士.
[35]黄天勇.微量化学外加剂对硅酸盐水泥强度的影响及作用机理[D].中国矿业大学(北京),矿物材料工程,2014,博士.
[36]张丽萍.细胞因子与孤独症相关性研究[D].吉林大学,临床医学,2013,硕士.
[37]齐建伟.土地利用动态遥感监测数据库系统研建[D].中国农业大学,2005.
[38]浦国锋.计量辅助系统客户机称量数据采集系统的故障排除[J].冶金自动化,2011,04:72-74.
[39]陈煜.图像融合技术及其应用研究[D].南京航空航天大学,测试计量技术及仪器,2004,硕士.
[40]陈宇翔.同声传译代码转换技术从非自动化向半自动化转换的实证研究[D].四川外国语大学,翻译(专业学位),2014,硕士.
[41]高庆宇.武警吉林支队招待所建设项目风险管理研究[D].吉林大学,项目管理,2013,硕士.
[42]伍英杰.面向机械产品设计的知识服务关键技术研究[D].山东大学,机械工程,2014,博士.
[43]郭祥芹.石墨烯/TiO_2复合薄膜的制备及其光生阴极保护性能研究[D].中国海洋大学,2013.
[44]程玮玮.淀粉均相脱支化及其包结络合功能因子的研究[D].华南理工大学,制糖工程,2014,硕士.
[45]郑国军.磁致伸缩导波管道无损检测数字信号处理关键技术[D].浙江大学,电子信息技术及仪器,2013,硕士.
[46]陈军.步进式加热炉燃烧过程智能控制策略及其应用[D].中南大学,软件工程,2004,硕士.
[47]富伟,王保军,周石光.1800mm炉卷轧机带钢头尾厚度偏差控制策略[J].冶金自动化,2012,05:59-63.
[48]刘立平.一种中文文本聚类方法的研究[D].湘潭大学,2003.
[49]江玉峰.基于天然纤维素物质的金属离子比色传感器和硅材料的制备及性能研究[D].浙江大学,化学,2013,硕士.
[50]袁丽敏.合作学习在高中英语阅读课中对学困生学习行为的影响[D].首都师范大学,学科教学,2014,硕士.

相关推荐
更多